Search CORE

71 research outputs found

Sur les relations entre syntaxe et discours : dispositifs de la rection et dispositifs macrosyntaxiques

Author: Benzitoun Christophe
Sabio Frédéric
Publication venue: Universitatea Babeş-Bolyai
Publication date: 01/01/2013
Field of study

Ensemble du numéro accessible à l'adresse : http://www.studia.ubbcluj.ro/download/pdf/819.pdfInternational audiencethe Aix-en-Provence framework of syntactic description of spoken French has put forward the notion of dispositif de la rection in order to account for the various ways in which a syntactic element such as a Subject or an Object can be organized within a verbal construction. For instance, cleft and pseudo-cleft constructions can be described as two distinct types of dispositifs . Our paper illustrates the fact that the morphological marks which characterize the form of such constructions (like the morphemes c'est [= it is] and que [= that] of cleft sentences, for example) are also liable to be used as a way to "stabilize" the link between successive sequences which share no dependency relationship at all. Thus, we suggest that consideration should be given to those specific dispositifs which seem to operate at a macrosyntactic, or discursive level.La notion de dispositif de la rection a été proposée par les inspirateurs de l'école aixoise de description syntaxique afin de rendre compte des différentes manières dont peut être agencée une place de construction à l'intérieur d'une construction verbale. C'est ainsi que le clivage et le pseudo-clivage peuvent être décrits comme deux dispositifs distincts. Notre étude illustrera le fait que le marquage morphologique qui caractérise la forme des dispositifs (les éléments c'est et qu- du clivage par exemple) peut également servir à " stabiliser" la relation qui existe entre certains éléments n'entretenant entre eux aucun lien rectionnel. Si bien qu'à côté des " vrais " dispositifs de la rection, il faudrait sans doute poser l'existence de dispositifs macrosyntaxiques, dont l'effet serait plus directement " discursif "

HAL AMU

TCOF-POS : un corpus libre de français parlé annoté en morphosyntaxe

Author: Benzitoun Christophe
Fort Karen
Sagot Benoît
Publication venue: HAL CCSD
Publication date: 04/06/2012
Field of study

National audienceThis article details the creation of TCOF-POS, the first freely available corpus of spontaneous spoken French. We present here the methodology that was followed in order to obtain the best possible quality in the final resource. This corpus already is freely available and can be used as a training/validation corpus for NLP tools, as well as a study corpus for linguistic research. We also present the results obtained by two POS-taggers trained on the corpus

INRIA a CCSD electronic archive server

HAL-Paris 13

Hal-Diderot

Où finit la phrase ? Où commence le texte ?

Author: Benzitoun Christophe
Sabio Frédéric
Publication venue: 'OpenEdition'
Publication date: 01/12/2010
Field of study

Dans cet article, nous nous proposons d’aborder l’épineuse question de la frontière entre la phrase et le texte à travers l’exemple des regroupements de constructions verbales. Plus spécifiquement, nous essayons de savoir dans quels cas il faut considérer qu’il s’agit d’un regroupement de nature syntaxique. Pour y répondre, nous détaillons en priorité les critères de syntaxe interne et externe sur lesquels nous basons notre analyse et qui nous permettent d’élaborer une typologie des regroupements. Toutefois, étant donné la complexité de la tâche, notre typologie posera essentiellement les principes généraux, chaque construction méritant une description approfondie.This paper questions the frontier between grammatical relations and discourse relations, by taking examples of verbal clause sequences, mostly drawn from spoken French corpora. More specifically, we try to analyse in which cases such combinations can be given a truly syntactic status. In order to elaborate our typology, we make a distinction between two kinds of criteria: those based on internal syntax and those based on external syntax. However, our typology will remain very general because of the difficulty of the task. In fact, every construction should be subject to a precise description

Directory of Open Access Journals

OpenEdition

Mutualisation et uniformisation de ressources de français parlé

Author: Benzitoun Christophe
Berard Lolita
Publication venue: 'OpenEdition'
Publication date: 16/10/2013
Field of study

La constitution de corpus oraux étant très coûteuse, il apparaît à l’heure actuelle incontournable de mettre des ressources en commun afin d’obtenir un corpus significatif pour la description du français. Notre expérience a consisté à réunir six corpus de français parlé, chacun étant transcrit et annoté en fonction d’un objectif particulier (sociolinguistique, phonologique, syntaxique). Nous présentons dans cet article la méthodologie adoptée pour obtenir des données unifiées et mises en forme dans une optique d’utilisation de logiciels d’enrichissement/exploitation de corpus. En effet, l’étape suivante sera de recourir à des outils de traitement automatique de corpus (analyseurs morpho-syntaxiques) ainsi que des outils de requêtes (concordanciers). Cette expérience nous a montré à quel point il est primordial de définir des recommandations pour les conventions de transcription, afin de faciliter l’échange et la mise en commun des données.According to the cost of speech transcription, it is very important to pool data to obtain a big size corpus to describe French. Our work consisted to pool six spoken French corpora, each with a specific goal (sociolinguistics, phonology, syntax), to format them for automatic exploitations. Indeed the next step will be to use NLP corpus tools (tagger, parser, concordancer). This experience showed that it is very important to specify recommendations for transcription conventions to make easier sharing and pooling data

OpenEdition

Using the TEI as a pivot format for oral and multimodal language corpora

Author: Benzitoun Christophe
Chanard Christian
Etienne Carole
Liégeois Loïc
Parisse Christophe
Publication venue: HAL CCSD
Publication date: 28/10/2015
Field of study

International audiencePresentation of the work of the GT2 team of the Consortium IRCOM.The goal of the project is to be able to convert classic oral transcription tools in the TEI format

HAL-ENS-LYON

HAL Clermont Université

HAL

Hal-Diderot

Réflexions sur les exploitations différenciées de la grammaire

Author: Benzitoun Christophe
Cappeau Paul
Corminboeuf Gilles
Publication venue: 'OpenEdition'
Publication date: 17/07/2018
Field of study

Notre réflexion porte sur deux aspects en particulier : (i) les questions d’ordre méthodologique qui ont trait à la constitution des données (sélection des sous-corpus, taille de ceux-ci, hiérarchie entre eux, etc.), et (ii) l’intégration dans les ouvrages de référence des rendements multiples de la grammaire.En nous fondant sur des corpus diversifiés, nous présentons les résultats de deux analyses linguistiques, l’une sur l’unité lexicale justement et l’autre sur la construction syntaxique du type il y en a (beaucoup) qui dansent. Ces deux objets d’étude illustrent pour l’un des disparités importantes selon les corpus et pour l’autre une différence notable entre oral et écrit. En parallèle, nous comparons nos analyses sur corpus avec les traitements proposés dans des grammaires et des dictionnaires.Notre recherche souligne qu’une description linguistique qui prend en compte l’oral non formel donne des résultats parfois assez différents de ce que l’on observe à l’écrit, et qu’il y a par conséquent lieu de faire une place de choix au français parlé non planifié dans les ouvrages de référence. Si l’étude fait ressortir la spécificité de l’oral non formel, elle ne remet toutefois pas en question l’unité du système. Les phénomènes variationnels que nous avons observés ne nous conduisent pas à formuler une hypothèse de type diglossique ou dialectale, mais plutôt à adopter une conception polylectale de la grammaireOur reflection focuses on two aspects: (i) methodological issues related to the creation of data (selection of sub-corpora, size of sub-corpora, hierarchy among them, etc.), and (ii) the integration of the multiple usages of the grammar in reference books.Based on diversified French corpora, we présent the results of two linguistic analyzes - one on the lexical unit justement (‘precisely’) and the other on syntactic constructions like il y en a (beaucoup) qui dansent (‘there are many people who dance’). These two subjects of research illustrate important disparities according to the corpus for one and a significant difference between spoken and written French for the other. In parallel, we compare our corpus studies with the corresponding items in both grammars and dictionaries.Our study emphasizes that a linguistic description taking into account non- formal oral gives results that are sometimes quite different from what is observed in writing. So it is necessary to integrate unplanned spoken French in the reference grammars. Even if our work highlights the specificity of non-formal oral, we think that the system is unique. The facts we have observed do not lead us to formulate a “diglossic” or “dialectal” hypothesis, but rather to adopt a “polylectal” conception of grammar

OpenEdition

Allegro : une plateforme « couteau suisse » pour l'exploitation des ressources textuelles

Author: Benzitoun Christophe
Husson Benjamin
Ollinger Sandrine
Petitjean Étienne
Publication venue: HAL CCSD
Publication date: 28/11/2019
Field of study

International audienceWe present Allegro, the new platform for the exploitation of textual resources developed at ATILF.We offer here a quick inventory of its current and future applications, before introducing its technicalfoundations. Allegro offers many possibilities for indexing and querying structured, annotated andmetadata-enriched data.Nous nous proposons de présenter Allegro, la nouvelle plateforme pour l’exploitation de ressourcestextuelles développée au sein du laboratoire ATILF, à travers un inventaire rapide de ses applicationsactuelles et à venir, ainsi que d’une introduction à ses bases techniques. Allegro offre de nombreusespossibilités pour l’indexation et l’interrogation de données structurées, annotées et enrichies demétadonnées

tu veux couper là faut dire pourquoi - Propositions pour une segmentation syntaxique du français parlé

Author: Anne Dister
Christophe Benzitoun
Frédéric Sabio
Jeanne-Marie Debaisieux
Kim Gerdes
Paola Pietrandrea
Sylvain Kahane
Publication venue: CMLF
Publication date: 01/01/2010
Field of study

International audienceCet article s'intéresse à une question théorique majeure : la segmentation de transcriptions de français parlé en unités syntaxiques fondamentales. A ce jour, cette question n'a pas encore trouvé de réponse satisfaisante. Du côté de l'analyse syntaxique de l'écrit, on se tient habituellement à la ponctuation pour laquelle les pratiques sont relativement fluctuantes et n'obéissent pas à des critères stables. En effet, lorsque l'on ponctue un texte à l'écrit, on a vraisemblablement recours à des critères syntaxiques, sémantiques ou prosodiques (et d'autres encore) de façon variable selon les auteurs. Ce présupposé est donc déjà problématique pour l'analyse syntaxique de l'écrit. Mais pour l'oral spontané, la question se pose de manière encore plus aigüe en raison d'une architecture syntaxique moins bien connue et de l'absence de tradition unifiée de ponctuation, toutefois en partie compensée par les marqueurs prosodiques.Nous avons abordé la problématique de la segmentation syntaxique de manière pratique étant donné que notre étude se situe dans le cadre d'un projet d'annotation syntaxique et prosodique de français parlé, le projet ANR Rhapsodie . Dans ce papier, nous décrivons l'élaboration de critères reproductibles et opératoires utilisés pour la segmentation des transcriptions brutes du corpus Rhapsodie, critères qui ne prétendent pas régler l'ensemble des problèmes théoriques. Cette segmentation est la première étape indispensable pour une annotation syntaxique exhaustive et pour faciliter l'analyse syntaxique automatique des textes

Crossref

EDP Sciences OAI-PMH repository (1.2.0)

HAL AMU

DIAL UCLouvain

Hal-Diderot

L'analyse syntaxique de l'oral : problèmes et méthodes

Author: Benzitoun Christophe
Campione Estelle
Deulofeu José
Henry Sandrine
Sabio Frédéric
Teston Sandra
Valli André
Véronis Jean
Publication venue: HAL CCSD
Publication date: 01/05/2004
Field of study

National audienceCette étude expose les résultats de plusieurs mois de réflexion et d'expérimentation liées à la constitution d'un corpus oral de référence dans le cadre du projet d'évaluation des analyseurs syntaxiques Easy. La plupart des travaux sur l'analyse syntaxique automatique au cours des dernières décennies ont porté sur l'écrit, et l'on dispose de très peu de corpus oraux syntaxiquement annotés (à notre connaissance aucun pour le français). Or, de tels corpus seraient extrêmement intéressants, tant pour les études linguistiques, que pour l'évolution des technologies de la parole, dont les « modèles de langage » sont souvent mis au point à partir de textes écrits reflétant assez mal le langage parlé (par exemple le journal Le Monde). L'oral constitue un défi majeur pour l'analyse syntaxique, mais nous montrerons que les phénomènes que l'on y observe se retrouvent également pour beaucoup à l'écrit, même si c'est avec des fréquences moindres. Nous faisons donc l'hypothèse que l'étude de l'oral peut aussi amener quelque lumière dans les zones d'ombre, souvent négligées par commodité, de l'écrit

HAL AMU

Quand un corpus rencontre un adjectif du troisième type. Etude distributionnelle de prochain

Author: Benzitoun Christophe
Bresson Solène
Budzinski Laure
Debaisieux Jeanne-Marie
Holzheimer Klara
Publication venue: Corpus
Publication date
Field of study

L’adjectif prochain fait partie de ces adjectifs que Schnedecker (2002a) nomme « les adjectifs du troisième type ». Ni qualificatifs ni relationnels, souvent marginalisés, ces derniers possèdent des caractéristiques qui n’ont fait l’objet d’aucune étude systématique sur corpus. Nous nous proposons de combler cette lacune en réalisant une analyse distributionnelle de prochain dans différents genres textuels (oraux et écrits). Dans un premier temps, l’analyse portera sur les phénomènes de sélection lexicale qui apparaissent dans les emplois attestés et qui semblent fortement conditionnés par la position de l’adjectif par rapport à son nom recteur. Nous verrons également que le nombre du nom recteur impose des contraintes d’emploi qui ont été peu détaillées dans les travaux antérieurs. Dans un deuxième temps, nous nous intéresserons aux noms recteurs, tels fois, saison et siècle, dont le fonctionnement diffère. L’étude sera l’occasion de comparer la description sur corpus avec celle proposée par Berthonneau (2002), basée sur une analyse introspective. La comparaison permettra de mettre en évidence les spécificités et les limites des deux approches. Une démarche similaire sera développée à partir des entrées de quelques dictionnaires. Au-delà de l’analyse de détail, l’article a pour objectif de présenter les bases descriptives permettant de problématiser le statut catégoriel de prochain.When a corpus meets an adjective of the Third Kind. Distributional analysis of ‘prochain’ in FrenchProchain is one of those adjectives that Schnedecker (2002a) called « adjectifs du troisième type ». Neither qualifiers nor relational adjectives, often marginalized, they have characteristics that have been no systematic study on corpus. We propose to bridge this gap by an analysis of the prochain distribution in various genres (spoken and written French). Firstly, the analysis will focus on the lexical selection phenomena that appear in corpora. It seems strongly influenced by the position of the adjective from his head noun. We will also see that the grammatical number of head noun imposes constraints that were not detailed in previous work. Secondly, our study will focus on “special” head nouns like fois,saison and siècle. In addition, we will compare our description with Berthonneau (2002), mainly based on introspection, which allows us to highlight the features and limitations of both approaches. We will do the same with some dictionary entries. Beyond the precise analysis, the paper aims to present the descriptive bases that enable the problematization of the categorial status of prochain

OpenEdition